第4章 種間の配列比較法
https://gyazo.com/be37df568f4f6e56cff7f5402add1cef
4.1 種間の配列比較における統計モデルの重要性
種間
種内よりもより時間的に離れた集団
種間の遺伝子配列を比較することによって行われる
種間の配列比較
異なる生物種がもつ似た配列は似たような機能をもつ
「似ている」とは
一致した文字数という単純な方法も可能
我々は遺伝子配列の進化についてある程度の知識があるので、よりよい評価モデルを考えられる
種間の比較では、
種内の多様性のような複雑な問題を考えなくてもよい
https://gyazo.com/a44cd066217a88f470a728548e262859
配列間で違っているサイトを数え上げる方法では、実際の置換の数を過小評価してしまう
DNAで用いられている塩基は4種類なので、完全にランダムな塩基配列を選んできても約25%は一致してしまう
実際に起こった置換の数を推定でき、突然変異率についての知識があれば、二つの遺伝子配列がどれくらい昔に分岐したのかを推定することができる
4.2 マルコフ過程の基礎知識
塩基配列の場合、4つの塩基がそれぞれの状態
突然変異が起こり、集団中に固定すると、塩基配列の置換が起こり、状態が入れ替わる
https://gyazo.com/58fb5632e0d53c570b81abe77f9a8ea0
同様に$ n段階目の状態をすべて考慮に入れて遷移確率が決まる過程を、n次マルコフ過程とよぶ マルコフ過程では、時間は離散的なものとして扱う
1万年(分子進化にとって十分に短い時間)間隔での塩基配列を考える場合、時間$ tと$ t+1における状態とは、ある年代$ tと$ t+10000年後の塩基配列を示す
$ \pi_{Rt}, \pi_{Yt}はそれぞれ、時間$ tに塩基がR、Yである確率($ \pi_{Rt} + \pi_{Yt} = 1)
一般的には状態$ iから状態$ jへの遷移確率を$ (i,j)要素にもつ行列
$ \bf w_{t+1}: 時間$ t+1における塩基配列がプリン塩基およびピリミジン塩基である状態
$ \mathbf{w}_{t+1}=\mathbf{w}_t\left(\begin{matrix}1-p_{R \rightarrow Y} & P_{R \rightarrow Y} \\ p_{Y \rightarrow R} & 1-p_{Y \rightarrow R} \end{matrix}\right)\qquad(4.1)
$ p_{R\rightarrow Y}: 単位時間あたりにプリン塩基がピリミジン塩基に置換する確率
$ p_{Y \rightarrow R}: ピリミジン塩基がプリン塩基に置換する確率
https://gyazo.com/b90a8b534bcfd128f9d97e0359edd7f6
$ \bf w_{0}: 時間$ t=0における塩基配列の状態
式(4.1)から$ \mathbf{w}_tは遷移確率行列$ \bf Pを$ t回掛け合わせた以下の形で表される
$ \mathbf{w}_t=\mathbf{w}_0\mathbf{P}^t\qquad(4.2)
十分長い時間が経ったあと($ t \rightarrow \infty)の状態
平衡状態: 時間が十分に経ち、塩基組成が変わらなくなった状態 平衡状態の塩基の状態の分布を$ \bf wとすると、平衡状態の定義より$ \bf w=w_{t+1}であるから、式(4.1)を変形して、次の式が得られる
$ \mathbf{w} = \left(\frac{p_{Y \rightarrow R}}{p_{R \rightarrow Y}+p_{Y \rightarrow R}},\frac{p_{R \rightarrow Y}}{p_{R \rightarrow Y}+p_{Y \rightarrow R}}\right)\qquad(4.3)
状態が二つであるモデルのみを扱ったが、より一般的に、状態が$ i個の場合でも同じ議論ができる
遷移確率行列は$ i \times iの行列となる
塩基配列では$ i=4, アミノ酸配列では$ i=20となる
4.3 塩基配列の進化モデル
4.3.1 一般的な塩基置換モデル
塩基配列間の進化距離を推定するいくつかの方法が提案されている
前述のマルコフ過程に基づいたモデル
時間は離散的なものとして扱うので、時間あたりの塩基の置換率をどう考えるかが難しい
非常に短い時間あたりの塩基$ iから塩基$ jへの置換速度を$ r_{ij}とすると
$ \mathbf{R}=\left(\begin{matrix}r_{\mathrm{AA}} & r_{\mathrm{AT}} & r_{\mathrm{AG}} & r_{\mathrm{AC}} \\ r_{\mathrm{TA}} & r_{\mathrm{TT}} & r_{\mathrm{TG}} & r_{\mathrm{TC}} \\ r_{\mathrm{GA}} & r_{\mathrm{GT}} & r_{\mathrm{GG}} & r_{\mathrm{GC}} \\ r_{\mathrm{CA}} & r_{\mathrm{CT}} & r_{\mathrm{CG}} & r_{\mathrm{CC}} \end{matrix}\right)\qquad(4.4)
ここで$ i=jの場合は、塩基の置換が起こらないということ
一般的な塩基置換速度行列では、行の合計を$ 0とする
$ \mathbf{P}_t=\left(\begin{matrix} p_{\mathrm{AA}}(t) & p_{\mathrm{AT}}(t) & p_{\mathrm{AG}}(t) & p_{\mathrm{AC}}(t) \\ p_{\mathrm{TA}}(t) & p_{\mathrm{TT}}(t) & p_{\mathrm{TG}}(t) & p_{\mathrm{TC}}(t) \\ p_{\mathrm{GA}}(t) & p_{\mathrm{GT}}(t) & p_{\mathrm{GG}}(t) & p_{\mathrm{GC}}(t) \\ p_{\mathrm{CA}}(t) & p_{\mathrm{CT}}(t) & p_{\mathrm{CG}}(t) & p_{\mathrm{CC}}(t)\end{matrix}\right)\qquad(4.5)
$ \bf Rは短い時間での塩基の変化速度を表すものなので、$ \mathbf{P}_tは次のように表すことができる
$ \frac{d\mathbf{P}_t}{dt}=\mathbf{P}_t\mathbf{R}\qquad(4.6)